We advance an information-theoretic model of human language processing in the brain, in which incoming linguistic input is processed at two levels, in terms of a heuristic interpretation and in terms of error correction. We propose that these two kinds of information processing have distinct electroencephalographic signatures, corresponding to the well-documented N400 and P600 components of language-related event-related potentials (ERPs). Formally, we show that the information content (surprisal) of a word in context can be decomposed into two quantities: (A) heuristic surprise, which signals processing difficulty of word given its inferred context, and corresponds with the N400 signal; and (B) discrepancy signal, which reflects divergence between the true context and the inferred context, and corresponds to the P600 signal. Both of these quantities can be estimated using modern NLP techniques. We validate our theory by successfully simulating ERP patterns elicited by a variety of linguistic manipulations in previously-reported experimental data from Ryskin et al. (2021). Our theory is in principle compatible with traditional cognitive theories assuming a `good-enough' heuristic interpretation stage, but with precise information-theoretic formulation.
translated by 谷歌翻译
Current pre-trained language models have enabled remarkable improvements in downstream tasks, but it remains difficult to distinguish effects of statistical correlation from more systematic logical reasoning grounded on understanding of the real world. In this paper we tease these factors apart by leveraging counterfactual conditionals, which force language models to predict unusual consequences based on hypothetical propositions. We introduce a set of tests drawn from psycholinguistic experiments, as well as larger-scale controlled datasets, to probe counterfactual predictions from a variety of popular pre-trained language models. We find that models are consistently able to override real-world knowledge in counterfactual scenarios, and that this effect is more robust in case of stronger baseline world knowledge -- however, we also find that for most models this effect appears largely to be driven by simple lexical cues. When we mitigate effects of both world knowledge and lexical cues to test knowledge of linguistic nuances of counterfactuals, we find that only GPT-3 shows sensitivity to these nuances, though this sensitivity is also non-trivially impacted by lexical associative factors.
translated by 谷歌翻译
二进制神经网络(BNN)是卷积神经网络(CNN)的极端量化版本,其所有功能和权重映射到仅1位。尽管BNN节省了大量的内存和计算需求以使CNN适用于边缘或移动设备,但由于二进制后的表示能力降低,BNN遭受了网络性能的下降。在本文中,我们提出了一个新的可更换且易于使用的卷积模块reponv,该模块reponv通过复制输入或沿通道维度的输出来增强特征地图,而不是$ \ beta $ times,而没有额外的参数和卷积计算费用。我们还定义了一组Reptran规则,可以在整个BNN模块中使用Repconv,例如二进制卷积,完全连接的层和批处理归一化。实验表明,在Reptran转换之后,一组高度引用的BNN与原始BNN版本相比,实现了普遍的性能。例如,Rep-Recu-Resnet-20的前1位准确性,即REPBCONV增强的RECU-RESNET-20,在CIFAR-10上达到了88.97%,比原始网络高1.47%。 Rep-Adambnn-Reactnet-A在Imagenet上获得了71.342%的TOP-1精度,这是BNN的最新结果。代码和型号可在以下网址提供:https://github.com/imfinethanks/rep_adambnn。
translated by 谷歌翻译
随着Covid-19的爆发,近年来已经出现了大量相关研究。我们提出了一个基于肺CT扫描图像的自动COVID-19诊断框架,即PVT-COV19D。为了适应图像输入的不同维度,我们首先使用变压器模型对图像进行了分类,然后根据正常分布对数据集中进行采样,并将采样结果馈送到修改的PVTV2模型中以进行训练。COV19-CT-DB数据集上的大量实验证明了该方法的有效性。
translated by 谷歌翻译
影响最大化是挖掘社交网络深入信息的关键问题,该信息旨在选择从网络中选择种子以最大程度地增加受影响的节点的数量。为了评估种子套装的影响,现有的努力提出了拟议的代理模型(转换),以较低的计算成本来代替昂贵的蒙特卡洛模拟过程。这些基于网络先验知识的替代转换从各个角度引起具有相似特征的不同搜索行为。对于特定情况,用户很难先验确定合适的转换。在本文中,我们提出了一个多种转化的进化框架,以进行影响最大化(MTEFIM),并保证了融合保证,以利用替代转换的潜在相似性和独特的优势,并避免用户手动确定最合适的转换。在MTEFIM中,将多个转换同时优化为多个任务。每个转换均分配一个进化求解器。进行了MTEFIM的三个主要组成部分:1)根据不同人群的个人(种子集)重叠程度估算转化之间的潜在关系,2)根据转变关系,将个体转移到跨种群中,3)选择最终输出种子集,包含所有代理模型知识。 MTEFIM的有效性在基准和现实世界社交网络上得到了验证。实验结果表明,与几种流行的IM特异性方法相比,MTEFIM可以有效地利用跨多个转换的潜在转移知识,以实现高度竞争性能。可以在https://github.com/xiaofangxd/mtefim上访问MTEFIM的实现。
translated by 谷歌翻译
我们NN的机制与最新的MIT脑可塑性研究的结果非常一致,研究人员发现,随着突触的增强,相邻的突触会自动削弱自身以补偿。关于这种机制的重要性,斯坦福大学Luo博士的团队表示,关于突触形成的树突形态发生的竞争至关重要。我们试图通过模型在关键时期关闭时通过模型与以前的研究相反,对大脑可塑性的失败机理进行研究。尖端成像和遗传工具在其实验研究中结合在一起,而我们的研究更加重视新NN的模型,推导和模拟。在测试中,证明树突在一定程度上的产生是通过突触形成遏制的。在研究中还考虑了电流和助记符脑可塑性以及突触作用范围。此外,新NN的框架基于当前的梯度信息和助记符负和阳性梯度信息突触形成。助记符梯度信息需要考虑被遗忘的记忆 - 腹部突触形成记忆持续性因子(包括阴性和正面记忆 - 即迄今且相对较低的梯度信息)。我们发现,像吞噬作用因子一样,星形细胞记忆持续性因子会产生减少突触局部积累的作用。无论梯度更新如何,仅考虑突触吞噬作用的PNN,以及是否取消了不同变量和突触位置的突触吞噬作用,是否由相应时间间隔的相关系数确定,证明简单且有效。
translated by 谷歌翻译
AI正在经历范式转变,随着模型的兴起(例如Bert,Dall-E,GPT-3),这些模型经过大规模的数据训练,并且可以适应广泛的下游任务。我们称这些模型基础模型来强调其至关重要但不完整的特征。该报告提供了基础模型的机会和风险的详尽说明,包括其功能(例如语言,愿景,机器人技术,推理,人类互动)和技术原则(例如,模型架构,培训程序,数据,系统,安全,安全性,评估,理论)对其应用(例如法律,医疗保健,教育)和社会影响(例如不平等,滥用,经济和环境影响,法律和道德考虑)。尽管基础模型基于标准的深度学习和转移学习,但它们的规模导致了新的新兴能力,以及它们在许多任务中的有效性都激发了同质化。同质化提供了强大的杠杆作用,但要求谨慎,因为基础模型的缺陷均由下游的所有适应模型继承。尽管即将广泛地部署基础模型,但我们目前对它们的工作方式,失败以及由于其新兴属性的影响而缺乏清晰的了解。为了解决这些问题,我们认为基础模型的许多批判性研究都需要与他们的基本社会技术性质相称。
translated by 谷歌翻译
图神经网络(GNN)已成功应用于许多真实世界静态图。但是,由于模型设计,评估设置和训练策略的局限性,静态图的成功尚未完全转化为动态图。具体而言,现有的动态GNN并不包含静态GNN的最新设计,从而限制了其性能。动态GNN的当前评估设置不能完全反映动态图的不断发展的性质。最后,用于动态GNN的常用训练方法是不可扩展的。在这里,我们提出了Roland,这是现实世界动态图的有效图表学习框架。 Roland框架的核心可以帮助研究人员轻松地将任何静态GNN重新用于动态图。我们的见解是将不同GNN层的节点嵌入视为分层节点状态,然后随着时间的推移将其反复更新。然后,我们为动态图引入了实时更高的评估设置,该设置模仿了现实世界中的用例,其中GNN正在做出预测并在滚动基础上进行更新。最后,我们通过增量训练和元学习提出了一种可扩展有效的训练方法,以动态GNN。我们在未来链接预测任务上对八个不同的动态图数据集进行了实验。在三个数据集的标准评估设置下,使用Roland框架建立的模型平均相对平均互惠等级(MRR)的平均相对平均值(MRR)改进。我们发现对较大数据集的最先进的基线经历了不可存储的错误,而Roland可以轻松地扩展到5600万个边缘的动态图。在使用ROLAND训练策略重新实现这些基准线后,Roland模型平均相对于基线相对相对改善了15.5%。
translated by 谷歌翻译
图神经网络(GNN)在捕获图形结构数据中的丰富信息方面表现出了显着的有效性。但是,GNNS的黑框性质阻碍用户理解和信任模型,从而导致其应用程序的困难。尽管近年来见证了有关解释GNN的研究的繁荣,但大多数人都专注于静态图,而动态GNN的解释几乎没有得到探索。由于它们的独特特征是随时间变化的图形结构,解释动态GNN是具有挑战性的。直接使用为动态图上静态图设计的现有模型是不可行的,因为它们忽略了快照之间的时间依赖性。在这项工作中,我们建议DGEXPLAINER为动态GNN提供可靠的解释。 DGEXPLAINER将动态GNN的输出激活评分重新分布到其先前层的神经元的相关性,直到获得输入神经元的相关性得分为止。我们在现实世界数据集上进行定量和定性实验,以证明所提出的框架在识别动态GNN的链接预测和节点回归的重要节点方面的有效性。
translated by 谷歌翻译
本文展示了一个视觉大满贯系统,该系统利用点和线云,同时使用嵌入式零件平面重建(PPR)模块,共同提供结构图。为了与跟踪并行构建一致的尺度地图,例如使用单个摄像机会带来挑战,以歧义性歧义重建几何原始图,并进一步引入了捆绑调整(BA)的图形优化的难度。我们通过在重建的线和飞机上提出几个运行时优化来解决这些问题。然后根据单眼框架的设计将系统用深度和立体声传感器扩展。结果表明,我们提出的SLAM紧密结合了语义功能,以增强前端跟踪和后端优化。我们在各种数据集上详尽地评估了系统,并为社区开放代码(https://github.com/peterfws/structure-plp-slam)。
translated by 谷歌翻译